我们呈现MSEG,该数据集统一来自不同域的语义分段数据集。由于分类和注释实践不一致,因此,构成数据集的天真合并产生了差的表现。我们通过在超过80,000张图像中重新标记超过220,000个对象掩码,需要超过1.34年的集体注释员努力,调整分类管理并将像素级注释带标记为超过220,000个对象掩码。生成的复合数据集使训练单个语义分段模型可以有效地跨域功能并推广到培训期间未见的数据集。我们采用零拍摄的跨数据集转移作为基准,以系统地评估模型的稳健性,并表明MSEG培训与在没有所提出的贡献的数据集的单个数据集或天真混合的情况下,产生了大量更强大的模型。在MSEG培训的模型首先在Wilddash-V1排行榜上排名为强大的语义细分,在训练期间没有暴露于野生垃圾数据。我们在2020年的强大视觉挑战(RVC)中评估我们的模型,作为一个极端的泛化实验。 MSEG培训集中仅包括RVC中的七个数据集中中的三个;更重要的是,RVC的评估分类是不同的,更详细。令人惊讶的是,我们的模型显示出竞争性能并排名第二。为了评估我们对强大,高效和完整的场景理解的宏伟目的的关机,我们通过使用我们的数据集进行训练实例分段和Panoptic Seation模型超越语义分割。此外,我们还评估了各种工程设计决策和度量,包括分辨率和计算效率。虽然我们的模型远非这一隆重目标,但我们的综合评价对于进步至关重要。我们与社区分享所有模型和代码。
translated by 谷歌翻译
We are concerned with learning models that generalize well to different unseen domains. We consider a worst-case formulation over data distributions that are near the source domain in the feature space. Only using training data from a single source distribution, we propose an iterative procedure that augments the dataset with examples from a fictitious target domain that is "hard" under the current model. We show that our iterative scheme is an adaptive data augmentation method where we append adversarial examples at each iteration. For softmax losses, we show that our method is a data-dependent regularization scheme that behaves differently from classical regularizers that regularize towards zero (e.g., ridge or lasso). On digit recognition and semantic segmentation tasks, our method learns models improve performance across a range of a priori unknown target domains.
translated by 谷歌翻译
基于变压器的语言模型利用注意机制在几乎所有自然语言处理(NLP)任务中进行大量绩效改进。在其他几个领域也广泛研究了类似的关注结构。尽管注意力机制可显着增强模型的性能,但其二次复杂性阻止了长序列的有效处理。最近的工作着重于消除计算效率低下的缺点,并表明基于变压器的模型仍然可以在没有注意力层的情况下达到竞争结果。一项开创性的研究提出了FNET,该研究将注意力层取代了变压器编码器体系结构中的傅立叶变换(FT)。 FNET通过消除注意机制的计算负担来加速训练过程,在加速训练过程的同时,实现了有关原始变压器编码器模型的竞争性能。但是,FNET模型忽略了FT的基本特性,可以利用经典信号处理,以进一步提高模型效率。我们提出了不同的方法,以有效地部署FT在变压器编码器模型中。我们提出的架构具有较少的模型参数,较短的培训时间,较少的内存使用情况以及一些额外的性能改进。我们通过对共同基准的广泛实验来证明这些改进。
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
光子计数CT(PCCT)通过更好的空间和能量分辨率提供了改进的诊断性能,但是开发可以处理这些大数据集的高质量图像重建方法是具有挑战性的。基于模型的解决方案结合了物理采集的模型,以重建更准确的图像,但取决于准确的前向操作员,并在寻找良好的正则化方面遇到困难。另一种方法是深度学习的重建,这在CT中表现出了巨大的希望。但是,完全数据驱动的解决方案通常需要大量的培训数据,并且缺乏解释性。为了结合两种方法的好处,同时最大程度地降低了各自的缺点,希望开发重建算法,以结合基于模型和数据驱动的方法。在这项工作中,我们基于展开/展开的迭代网络提出了一种新颖的深度学习解决方案,用于PCCT中的材料分解。我们评估了两种情况:一种学识渊博的后处理,隐含地利用了模型知识,以及一种学到的梯度,该梯度在体系结构中具有明确的基于模型的组件。借助我们提出的技术,我们解决了一个具有挑战性的PCCT模拟情况:低剂量,碘对比度和很小的训练样品支持的腹部成像中的三材料分解。在这种情况下,我们的方法的表现优于最大似然估计,一种变异方法以及一个完整的网络。
translated by 谷歌翻译
这项研究重点是探索局部可解释性方法来解释时间序列聚类模型。许多最先进的聚类模型无法直接解释。为了提供这些聚类算法的解释,我们训练分类模型以估计群集标签。然后,我们使用可解释性方法来解释分类模型的决策。这些解释用于获得对聚类模型的见解。我们执行一项详细的数值研究,以测试多个数据集,聚类模型和分类模型上所提出的方法。结果的分析表明,所提出的方法可用于解释时间序列聚类模型,特别是当基础分类模型准确时。最后,我们对结果进行了详细的分析,讨论了如何在现实生活中使用我们的方法。
translated by 谷歌翻译
在不利天气条件下的图像恢复对各种计算机视觉应用引起了重大兴趣。最近的成功方法取决于深度神经网络架构设计(例如,具有视觉变压器)的当前进展。由最新的条件生成模型取得的最新进展的动机,我们提出了一种基于贴片的图像恢复算法,基于脱氧扩散概率模型。我们的基于贴片的扩散建模方法可以通过使用指导的DeNoising过程进行尺寸 - 不足的图像恢复,并在推理过程中对重叠贴片进行平滑的噪声估计。我们在基准数据集上经验评估了我们的模型,以进行图像,混合的降低和飞行以及去除雨滴的去除。我们展示了我们在特定天气和多天气图像恢复上实现最先进的表演的方法,并在质量上表现出对现实世界测试图像的强烈概括。
translated by 谷歌翻译
我们检查了通过直播(OTA)聚合的联合学习(FL),移动用户(MUS)旨在借助聚合本地梯度的参数服务器(PS)在全球模型上达成共识。在OTA FL中,MUS在每个训练回合中使用本地数据训练他们的模型,并以未编码的方式使用相同的频带同时传输其梯度。根据超级梯度的接收信号,PS执行全局模型更新。尽管OTA FL的通信成本显着降低,但它容易受到不利的通道影响和噪声的影响。在接收器侧采用多个天线可以减少这些效果,但是对于远离PS的用户来说,路径损失仍然是一个限制因素。为了改善此问题,在本文中,我们提出了一种基于无线的层次FL方案,该方案使用中间服务器(ISS)在MUS更密集的区域形成簇。我们的计划利用OTA群集聚合与MUS与其相应的IS进行交流,而OTA全球聚合从ISS到PS。我们提出了针对所提出算法的收敛分析,并通过对使用ISS的衍生分析表达式和实验结果的数值评估显示,与单独使用较少的传输功率相比,利用ISS的结果比单独的OTA FL具有更快的收敛性和更好的性能。我们还使用不同数量的群集迭代以及不同数据集和数据分布来验证性能的结果。我们得出的结论是,群集聚集的最佳选择取决于MUS和集群之间的数据分布。
translated by 谷歌翻译
人们对人类情感状态的稀疏代表性格式的需求日益增长,这些格式可以在有限的计算记忆资源的情况下使用。我们探讨了在潜在矢量空间中代表神经数据对情绪刺激的响应是否可以用于预测情绪状态,并生成参与者和/或情绪特定于情绪的合成EEG数据。我们提出了一个有条件的基于变异自动编码器的框架EEG2VEC,以从脑电图数据中学习生成歧视性表示。关于情感脑电图记录数据集的实验结果表明,我们的模型适用于无监督的脑电图建模,基于潜在表示的三个不同情绪类别(正,中性,负)的分类,可实现68.49%的稳健性能,并产生的合成eeg序列共同存在于真实的脑电图数据输入到特别重建低频信号组件。我们的工作推进了情感脑电图表示可以在例如生成人工(标签)训练数据或减轻手动功能提取的领域,并为记忆约束的边缘计算应用程序提供效率。
translated by 谷歌翻译
灵活地处理各种机器人动作语言翻译任务是机器人和人之间自然相互作用的必不可少的要求。以前的方法需要更改推理过程中每个任务的模型体系结构的配置,这破坏了多任务学习的前提。在这项工作中,我们提出了配对的门控自动编码器(PGAE),以在桌面对象操纵方案中的机器人动作和语言描述之间进行灵活翻译。我们通过将每个动作与包含信号通知翻译方向的信号的适当描述配对,以端到端的方式训练模型。在推断期间,我们的模型可以从动作转化为语言,反之亦然,根据给定的语言信号。此外,为了选择使用预算语言模型作为语言编码器,我们的模型有可能识别看不见的自然语言输入。我们模型的另一个功能是,它可以通过使用机器人演示来识别和模仿另一个代理的动作。该实验结果突出了我们方法的灵活双向翻译能力,同时又可以推广到相反剂的作用。
translated by 谷歌翻译